查看原文
其他

controlnet 的作者的最新项目 Omost - 利用 LLM 进行图像合成

renee创业狗 Renee 创业随笔
2024-10-09

controlnet 的作者最近推出了一个新的研究项目——Omost。

https://github.com/lllyasviel/Omost

Omost 旨在将大型语言模型(LLM)的编码能力转换为图像生成(更准确地说,是图像合成)能力。

Omost 的名字有两个含义:

  1. 每次使用 Omost 后,你的图像都“几乎”完成了;
  2. 其中的 O 代表“全能”(多模态),most 意味着我们希望充分利用它的潜力。

Omost 提供了 LLM 模型,这些模型将通过 Omost 的虚拟 Canvas 代理编写代码来合成图像视觉内容。这个 Canvas 可以通过特定实现的图像生成器进行渲染,最终生成图像。

目前,作者提供了基于 Llama3 和 Phi3 变体的三种预训练 LLM 模型(具体模型说明请参见页面末尾的模型注释)。所有模型都经过以下数据混合训练:

  1. 包括 Open-Images 在内的多个数据集的真实标注数据;
  2. 自动标注图像提取的数据;
  3. 来自 DPO(直接偏好优化,“代码是否能在 Python 3.10 上编译”作为直接偏好)的强化数据;
  4. OpenAI GPT4o 的多模态能力提供的小量调优数据。

通过这些预训练模型,用户可以高效地生成和合成图像内容。

可以在https://huggingface.co/spaces/lllyasviel/Omost 上运行 demo 来体验 Omost 的完整流程。


  1. 输入一句话的 prompt

a dog and a cat

  1. 然后 Omost 就开始发挥了


  2. 然后渲染图像


  3. 接着可以做各种修改的提示,比如狗是泰迪狗

the dog is a Teddy dog

  1. Omost 再去展开


  2. 最后渲染图像

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存